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一 种 基于 改进 特征 加 权 的 朴素 贝 叶 斯 分 类 算法 
本 月 ， 汪 学 明 


(贵州 大 学 计算 机 科学 与 技术 学 院 , 贵阳 550025) 


摘 要 : 传统 朴素 贝 叶 分 类 算法 没有 根据 特征 项 的 不 同 对 其 重要 程度 划分 ， 使 得 分 类 结果 不 准确 。 针 对 这 一 问题 ， 

引入 Jensen-Shannon (JS) 散 度 ， 用 JS 散 度 来 表示 特征 项 所 能 提供 的 信息 量 ， 并 针对 JS 散 度 存 在 的 不 足 ， 从 类 别 内 
与 类 别 间 的 词 频 、 文 本 频 以 及 用 变异 系数 修正 过 的 逆 类 别 频 率 这 三 个 方面 考虑 ， 对 JS 散 度 进行 调整 修正 ， 最 后 计算 出 
每 一 特征 项 的 权 值 ,将 权 值 带 入 到 朴素 贝 叶 斯 的 公式 中 。 通 过 与 其 他 算法 的 对 比 实验 证 明 , 基于 JS 散 度 并 从 词 、 文 本 、 

类 别 三 方面 改进 后 的 朴素 贝 叶 斯 算法 的 分 类 效果 最 好 。 因 此 基于 JS 散 度 特征 加 权 的 朴素 贝 叶 斯 分 类 算法 与 其 他 分 类 算 

法 相 比 ， 其 分 类 性 能 有 很 大 提高 。 
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Naive Bayes classification algorithm based on feature weighting 


Ding Yue, Wang Xuemingi 
(College of Computer Science & Technology Guizhou University, Guiyang 550025, China) 


Abstract: The traditional Naive Bayes classification algorithm does not divide the importance degree according to the 
different feature items, which makes the classification result inaccurate. In order to solve this problem, this paper introduces 
Jensen-Shannon (JS) divergence and uses JS divergence to express the amount of information provided by the feature terms. 
Aiming at the deficiency of JS divergence, the paper consider from the three aspects of word frequency, text frequency and 
inverse category frequency corrected by coefficient of variation, the JS divergence is adjusted and corrected. The weights are 
introduced into the naive Bayes formula. Compared with other algorithms, it is proved that this method improves the naive 


Bias classification algorithm effectively. Therefore, compared with other classification algorithms, the performance of naive 


Bayesian classification algorithm based on JS divergence feature weighting is greatly improved. 


= Key words: text classification; Naive Bayes; Jensen-Shannon divergence; word frequency; document frequency ; class 


frequency 
0 ”引言 得 ， 在 数据 有 限 的 情况 下 也 可 计算 。 总 体 来 说 ， 算 法 相对 简单 


高 效 ， 同 时 具有 强大 可 靠 的 数学 理论 作为 文 撑 ， 但 是 其 分 类 精 

当今 互联 网 飞速 发 展 ， 各 类 信息 大 规模 的 出 现 ， 如 何在 众 ” 确 度 较 差 ， 分 类 结果 仍 有 一 定 的 提升 空间 。 
多 的 信息 中 筛选 出 目标 信息 成 了 信息 挖掘 技术 中 的 重要 研究 内 前 ,有 两 类 针对 传统 朴素 贝 叶 斯 分 类 算法 改进 的 方法 中 ， 
容 ， 数 据 挖掘 中 的 各 种 文本 分 类 算法 将 信息 进行 分 组 归 类 ， 提 一 种 是 放宽 假设 条 件 中 的 耦合 程度 ， 通 过 降低 独立 性 的 限制 
高 了 分 类 的 准确 性 和 高 效 性 。 目 前 ， 常 用 的 分 类 算法 有 决策 树 ” 条 件 来 提高 分 类 精度 ， 但 是 这 种 方法 会 大 大 增加 计算 量 ， 代 价 
分 类 算法 、K- 最 邻近 (KNN) 分 类 算法 、 支 持 向 量 机 (SVM) ” 过 高 ， 比 如 树 增强 朴素 贝 叶 斯 (TAN)H，TAN 在 提高 分 类 准确 
分 类 算法 、 朴 素 贝 叶 斯 分 类 算法 ("4。 已 有 实验 研究 表明 , 在 处 度 的 同时 ,其 计算 难度 也 大 大 增 大 ; 第 二 种 是 通过 放大 在 文本 分 
理 大 规模 的 数据 集 时 , KNN 算法 会 有 很 大 的 计算 开销 , 而 SVM 类 起 着 重要 作用 的 特征 项 的 影响 力 ， 也 就 是 给 特征 项 赋予 一 个 
算法 的 计算 精度 虽 高 但 其 时 间 开 销 较 大 ， 同 样 决 策 树 算法 的 效 。 权 值 ， 这 种 方法 即 简 单 又 能 有 效 改善 分 类 准确 度 。 因 此 ， 本 文 
率 也 会 因为 数据 量 的 增 大 而 降低 。 而 朴素 贝 叶 斯 分 类 算法 5 在 ”提出 了 一 种 基于 JS 散 度 的 特征 加 权 算 法 , 根据 特征 项 对 分 类 结 
分 类 过 程 中 的 效率 较为 稳定 ， 并 且 使 用 时 所 需要 的 参数 方便 获 “， 果 起 到 作用 大 小 的 不 同 ， 赋 与 不 同 的 权 值 ， 达 到 对 朴素 贝 叶 斯 
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化 


算法 完成 改进 的 目的 。 单个 片面 的 角度 进行 改进 ， 没 有 将 特征 项 所 携带 的 信息 

词 频 、 文 本 频率 、 类 别 频率 及 其 在 类 别 内 和 类 别 外 的 分 布 情况 

1 ”相关 研究 pe ; 和 

进行 综合 考虑 。 因 此 ， 本 文 用 JS 散 度 表 示 特 征 项 的 信息 量 ， 并 

1.1 朴素 贝 叶 斯 分 类 算法 从 特征 词 、 文 本 、 类 别 这 三 个 维度 的 类 别 内 外 充分 考虑 ， 提 出 
朴素 贝 叶 斯 算法 是 以 贝 叶 斯 算法 0 为 基础 ， 假 设 各 特征 条 一 种 新 的 基于 JS 散 度 的 特征 加 权 朴 素 贝 叶 斯 分 类 算法 。 


件 相 互 独立 的 一 种 有 效 的 分 类 算法 。 假 设 有 类 别 集 C(cl，c>， a 
. ”7 2 基于 改进 特征 选择 的 加 权 朴 素 贝 叶 斯 分 类 算法 


c3，...，Cn) 和 待 分 类 的 文本 特征 项 XCxl，xz，x3, ...，Xn)， 朴 素 
贝 叶 斯 算法 就 是 假设 特征 项 在 类 别 ca 与 co 之 间 相 互 独立 的 情况 传统 的 朴素 贝 叶 斯 算法 将 所 有 的 特征 项 都 视 为 同等 重要 ， 


下 ， 计 算出 特征 项 属于 各 个 类 别 的 概率 P(cn|X)， 所 得 最 大 值 对 ”但 实际 上 这 些 特征 项 在 分 类 过 程 中 起 到 的 作用 并 不 相同 ， 这 样 
应 的 类 别 就 是 该 文本 属于 的 类 别 cr。 朴素 贝 叶 斯 分 类 公式 如 下 : ”会 降低 分 类 的 精度 ， 因 此 有 必要 使 用 文本 特征 选择 算法 对 每 个 
特征 项 进行 加 权 ， 对 其 赋予 一 定 的 权 值 ， 提 高 分 类 性 能 。 朴 素 
贝 叶 斯 公式 改进 为 


Cn) (D) 


CNB 一 argmaxP(cod) [TL P(xm 


m=] 


其 中 :P(cn) 代 表 的 是 所 要 分 类 的 文本 属于 类 别 ca 的 概率 ;PCxm|cn) 
所 代表 的 是 类 别 cn 中 包含 特征 项 xm 的 概率 。 


Cn) X Om, n) (4) 


CNB 一 argmaxP(co[ TL, P(xm 


。 ，。 属 于 美的 文本 数 本 比 中 ，@o(m， 丰 是 类 别 cs 中 特征 项 xn 的 权 值 ，o(m， 中 是 
Cn 7/ 二 
训练 集中 的 文本 总 数 对 特征 项 xm 在 分 类 过 程 中 产生 作用 大 小 的 衡量 ， 准 确 计算 
类 别 c" 中 包 含 特征 项 x 的 文本 数量 am，Db) 是 提高 朴素 贝 叶 斯 分 类 准确 性 的 关键 。 
PG | en) = ke (3) 
类 别 c 中 的 文本 总 数 2.1 JS 散 度 及 其 局 限 性 
但 在 公式 中 ， 前 提 条 件 假设 每 个 特征 向 量 完全 独立 ， 并 且 。” 炳 最 初 是 物理 学 的 专业 术语 ， 直 到 1948 年 ，Shannon 将 炳 作为 


学 
多 少 的 数值 ， 用 到 了 信息 论 中 ， 用 信息 焙 表 示 信 


每 个 特征 项 的 权重 都 是 相同 的 ， 不 符合 实际 情况 ， 得 到 的 分 类 种 量化 信息 

结果 必然 不 准确 。 息 的 不 确定 度 。 信 息 增益 是 文本 分 类 中 特征 项 出 现时 的 信息 灶 

1.2 特征 加 权 算 法 与 不 出 现时 信息 炉 之 间 的 差 值 ， 表 示 了 因 特 征 词 的 存在 而 降低 
有 许多 专家 利用 属性 加 权 赋 值 的 算法 对 朴素 贝 叶 斯 分 类 模 ”的 不 确定 性 的 多 少 ， 即 特征 项 所 提供 的 信息 量 。 


型 进行 了 深入 的 研究 和 改进 完善 ， 最 常用 的 关于 计算 特征 权 习 KL (kullback-leiber 〉 散 度 ( 也 叫 交叉 米 ， 与 信息 增益 类 
算法 的 算法 有 词 频 (TF) 、 逆 文本 频 (IDF) 、 信 息 增 益 (IG) 、 似 。KL 散 度 是 指 特征 词 在 文档 中 存在 和 不 存在 这 两 种 情况 的 
互信 息 (MI)、 期 望 交叉 (ECE ) 等 。 单 丽 莉 等 人 四 对 TFIDF、 ”距离 差 ， 这 个 差 值 用 于 表示 该 特征 项 带 来 的 信息 量 。KL 散 度 
MI、IG、ECE 这 四 种 常用 的 权重 算法 进行 了 比较 研究 ， 并 提出 与 信息 增益 的 不 同 点 是 : 信息 增益 把 同类 文档 中 不 存在 某 特征 
了 改进 方法 ， 用 改进 后 的 算法 对 旅行 类 的 相关 文本 进行 分 类 ， 项 时 的 情况 也 作为 了 一 种 影响 分 类 结果 的 因素 ， 而 KL 散 度 仅 
得 出 文本 中 不 存在 的 词语 对 分 类 起 到 的 干扰 作用 比 带 来 的 贡献 。” 考虑 特征 项 在 文档 中 存 时 对 分 类 产生 的 影响 ， 虽 然 特征 项 的 不 
大 的 结论 ， 因 此 使 用 ECE 算法 比 用 IG 算法 计算 出 的 权重 值 准 ”存在 也 会 对 文本 类 起 到 作用 ,但 是 产生 的 干扰 比 带 来 的 贡献 大 ， 
确 。 饶 丽 丽 等 人 na9 对 传统 的 TFIDF 权重 算法 进行 了 改进 , 基于 ”所 以 用 KL 散 度 计算 特征 项 的 权重 比 信息 增益 计算 得 出 的 结果 
传统 的 词 频 与 逆 文 本 频 , 结合 特征 项 在 类 内 和 类 外 的 分 布 情况 ， ”准确 。KL 散 度 的 计算 公式 为 

提出 了 TFIDF-FC 算法 ， 并 把 TFIDF-FC 算法 运用 到 朴素 贝 叶 P(e |) (9) 

斯 分 类 算法 中 ， 分 类 效果 得 到 改善 。 Wang 等 人 0 关注 到 了 词 P(en) 

与 类 别 之 间 的 关系 ， 提 出 将 逆 类 频率 (ICF) 与 关联 频率 (RF) ” 其 中 : P(cn|xm) 所 表示 的 是 含有 特征 项 xm 的 文本 属于 类 别 cn 的 
相 结合 ,提出 若 一 个 特征 项 在 多 数 的 类 别 中 都 存在 , 则 要 降低 特 概率; P(cn) 表 示 类 别 cn 在 全 部 的 训练 文本 集中 所 占 的 比 
征 项 的 权重 ， 通过 减少 特征 项 的 权重 来 提高 分 类 的 准确 度 ; 针 在 概率 论 和 数理 统计 中 , JS 散 度 05 是 基于 散 度 的 衡量 两 种 
对 IG 算法 没有 考虑 到 特征 项 频数 的 问题 ， 石 慧 等 人 02 研 究 发 ”概率 分 布 相似 性 的 一 种 方法 ,并 且 相 对 于 KL 散 度 有 一 定 的 优 
现 IG 算法 在 计算 特征 项 所 提供 的 信息 量 时 ， 只 考虑 了 含有 特 。 势 。KL 散 度 具有 某 些 局 限 性 :a)KL 散 度 看 似 是 用 来 表示 距离 
证 词 的 文本 数 占 训 练 集中 所 有 包含 特征 项 的 文本 数 的 比例 ， 而 ”的 度量 ， 其 实 并 不 具有 对 称 性 ， 不 是 真正 意义 上 的 度量 ，b) 计 
没有 考虑 特征 项 本 身 出 现 的 次 数 ， 于 是 提出 将 类 内 词 频 与 类 间 算 结 果 没 有 界限 ， 不 方便 比较 。 于 是 本 文 引入 JS 散 度 ，JS 散 
词 频 引入 到 传统 的 IG 算法 中 来 提高 分 类 的 准确 度 ，Peng 等 人  ” 度 是 基于 KL 散 度 的 一 种 变 体 ， 其 不 但 继承 了 KL 散 度 的 优点 ， 
09 提 出 了 一 种 基于 相对 文本 分 布 频率 的 IG 算法 ， 用 文本 的 相 ”也 弥补 了 上 述 缺 陷 。 利 用 JS 散 度 在 计算 信息 粹 时 , 其 计算 结果 
对 频率 分 布 代 蔡 了 不 同类 别 间 含 有 特征 项 的 文本 的 频率 分 布 ， 的 范围 始终 在 0 与 1 之 间 ， 与 KL 相 比 ， 计 算 结果 对 其 之 间 相 
进一步 提高 了 分 类 性 能 。 似 度 的 判别 更 加 确切 且 方 便 比较 。 从 公式 中 可 以 看 出 JS 散 度 是 
虽然 这 些 方 法 对 提高 分 类 的 准确 度 起 到 了 一 定 的 作用 ,但 只 是 ” 具有 对 称 性 的 ， 是 真正 的 距离 测量 标准 。JS 散 度 的 计算 公式 如 
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KL(xm) 一 Pl(cn Xm) log 
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P+0 


) (6) 


JSP| 0)=3 KL(P 


P+O、1 
1 他 多 +3KLQI 


把 JS 散 度 引 入 到 朴素 贝 叶 
布 距离 的 大 小 来 表示 特征 项 所 携带 的 信息 量 的 大 小 ， 因 此 特征 
项 xm 的 JS 业 越 大 ， 为 其 赋予 的 权 值 相应 增 大 。 


JS(xm) 二 {P(e 


1 
+ 一 [P n)1 
二 (cn)log 


从 上 述 公式 可 以 看 出 ， 


时 把 重心 放 在 类 别 内 包含 特 和 


Xm)log 


2P(cn 

Pl(cn 
2P(e,) 

P(e |x0) + Po 


Xm) 


JS 散 度 在 评 


和 比例 上 ， 从 而 有 三 个 缺点 : 
a) 忽 略 特征 项 词 频 对 权重 的 影响 。 若 特征 项 在 同一 类 别 的 


文本 中 都 存在 ， 但 是 在 每 篇 文本 中 出 现 的 个 数 却 很 少 ， 
这 种 情况 下， 该 特 和 


泛 但 个 数 零星 。 


Xm) 二 Pl(cn) 
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斯 算法 中 , 可 以 通过 计算 两 种 分 


(7) 


估 一 个 特征 项 的 重要 性 
E 项 的 文本 在 不 同类 别 之 间 的 频数 


分 布 广 


项 的 类 别 间 文 本 频率 高 、 


词 频 低 ， 不 能 很 好 地 代表 一 个 类 别 ， 却 有 着 较 高 的 权重 值 ， 这 
广 。 祥 导 致 了 赋予 的 权重 不 准确 。 例 如 ， 现 在 有 两 个 类 别 ， 每 个 类 
= 别 有 三 篇 文本 ， 包 含有 两 个 特征 项 。 如 表 1 所 示 ， 特 征 项 ti 和 
”都 分 别 在 类 别 cl 和 c 内 部 分 布 于 三 篇 和 一 篇 文本 。 根 据 JS 
加 散 度 计算 得 到 的 特征 项 tt 和 了 的 权重 值 相等 ,但 是 特征 项 在 
一 类 别 cl 内 每 篇 文本 中 出 现 的 频数 都 比 口 多 , 在 类 别 c 内 的 出 现 
oo 的 频数 却 比 b 少 ， 显 然 特 征 项 比 b 能 更 好 的 代表 类 别 ct， 对 
@D 文本 分 类 起 到 的 作用 更 大 ， 应 该 赋予 更 高 的 权重 ， 然 而 并 没有 
GN 在 Js 散 度 计算 公式 中 体现 ， 导 致 误差 的 出 现 。 
之 表 1 特征 项 tl 和 也 在 不 同文 本 中 出 现 的 频数 
ve 
© 文本 (篇 ) 
.于 特征 词 C1 类 C2 类 
-= I 
© tl 5 5 5 0 1 0 

t2 1 1 0 3 0 


b) 在 JS 散 度 公式 中 ，P(cnlxm) 体 现 了 含 特征 项 的 文本 在 类 


别 间 的 聚集 程度 ， 却 没 


果 特 征 项 在 某 个 类 别 的 文本 中 均匀 分 布 ， 则 意味 着 这 个 特 


体现 文本 在 特定 类 别 内 是 否 集中 。 如 


本 为， 
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表 2 特征 项 t3 和 4 在 不 同类 别 中 出 现 的 频数 
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特征 词 


文本 (篇 ) 
C4 类 C5 类 C6 类 


t3 
t4 


12345123451234512345 


55505555000000000000 
55505500005000050000 


2.2 ”特征 项 词 频 TF 
词 频 指 的 是 特征 项 xm 存在 于 文本 d 内 的 频率 。 在 进 


分 类 的 过 程 中 ， 最 终 目 
不 是 把 文本 与 文本 区 分 开 来 。 因 此 在 对 文本 分 类 时 


的 是 把 文本 与 类 别 进行 划分 和 归 
， 首 


要 统计 特征 项 在 类 别 间 的 词 频 ， 即 特征 项 xm 在 类 别 cn 


的 次 数 与 1 


| 练 集 内 特征 项 xm 在 所 有 类 别 中 出 
比例 ， 比 值 越 大 , 说明 特 征 项 xm 在 各 类 别 之 间 分 布 越 集中 ， 其 
区 分 能 力 就 越 好 ， 其 次 ， 
就 是 特征 项 xm 在 类 别 cs 各 个 文本 中 的 分 布 情况 ， 
在 类 别 cn 中 出 现 的 次 数 与 类 别 cn 内 
含有 该 特征 项 的 文本 数 越 多 ， 分 布 越 分 散 ， 说 明 该 特征 项 的 类 
别 代表 性 就 越 好 。 


网 的 总 数 


需要 统计 特征 项 在 类 别 内 的 词 


特征 项 类 间 词 频 TBCEF (term between class frequency ): 


h(x) 


i 


>》 tom) 


n=1 


TBCF (Xm) = (8) 


特征 项 类 内 词 频 TICF (term in class frequency): 


其 中 : 


TICFCO = 多 co (9) 
D 


示 特 征 项 


特征 项 词 频 的 计算 如 下 : 
特征 项 词 词 频 TF(term frequency): 


TF =TBCF xTICF (10) 


2.3 文本 频率 DF 


Js 散 度 公式 中 的 P(cn|lxm) 项 ， 是 | 
以 训练 集中 所 有 含有 特征 项 xm 的 文本 总 数 计 


别 cm 的 文本 数 除 
算得 出 ， 表 示 了 包含 特征 


行文 本 
类 ， 而 


先 ， 


中 出 现 
之 间 的 


需 


频 ， 也 


即 特征 项 xm 
中 文本 数 之 比 , 若 在 类 别 内 


tfn(Xm) 表 示 特 征 项 xm 在 类 别 c* 中 的 频数 ，tti(Cxm 表 
xm 在 类 别 ci 中 的 频数 ; D 代表 类 别 cs 中 的 总 文本 数 。 


今 
| 


的 文本 在 类 别 之 间 的 频率 ， 


项 


EF 项 


对 该 类 别 而 言 有 一 定 的 
重 ， 


的 词 频 和 文本 频率 相同 时 


因此 需要 考虑 含 特征 项 的 文本 在 类 别 
9 没有 考虑 到 类 别 频率 对 


总 的 类 别 数 与 


HI > 


之 间 的 比例 也 是 对 特征 项 


EE 要 性 


征 项 分 布 较为 集中 ， 所 以 在 类 别 之 间 的 


四 9 特征 项 t4 在 四 


个 类 别 中 都 有 


尺 表 性 ， 可 以 赋予 这 个 特征 项 较 大 的 权 
内 的 分 布 比例 。 
文本 分 类 的 影响 ， 当 两 个 特征 项 
包含 特征 项 的 类 别 数 
判断 的 依据 。 如 表 2 所 示 ， 特 
征 项 t 和 4 在 训练 集中 的 词 频 和 文本 频率 都 相同 ,但 是 特征 项 
6 仅 集 中 出 现在 类 别 cs 和 c4 
现 ， 含 有 特征 项 b 的 类 别 数 要 小 于 含有 特征 项 


CE 


Ci 


4 的 类 别 数 ，4 


综合 考虑 。 


区 分 度 要 大 。 


因此 要 对 特征 词 的 重要 程度 进行 划分 ， 就 需要 从 词 频 、 文 
本 频 及 逆 类 别 频率 这 三 方 画 


文本 类 内 频率 DICF (document in class frequency): 


DF = DICF(xn) = 人 


其 中 :dfh(xm) 表 示 含 


UD 


有 特征 项 xm 的 文本 在 类 别 Cn 


本 数 ; D 代表 类 别 Cn 中 的 总 文本 数 。 
2.4 ”类 别 频率 CF 


在 
除了 要 考虑 至 


重要 的 影响 因素 ， 它 能 够 有 效 的 利 


判定 一 个 特征 项 对 文本 分 类 所 起 到 作 
I 词 频 和 文本 频率 这 两 方 奋 


别 具 有 代表 怕 


的 特征 项 似乎 


和 特征 项 xm 且 


说 明 该 特征 


遇 于 类 


因此 ， 


只 需 加 入 含有 特征 项 文本 在 类 别 内 的 频率 M91 即 可 。 频 率 越 大 ， 
表示 特征 项 在 类 别 内 的 文本 中 存在 越 普遍 ， 
该 类 别 有 很 好 的 代表 性 。 


项 对 于 


中 的 文 


用 的 重要 程度 时 ， 


以 外 ， 


类 别 


水 


页 率 也 是 很 


j 类 间 的 信息 。 由 于 特定 类 


只 存在 于 少数 类 中 ， 所 以 本 文 使 用 
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录用 定稿 


逆 
逆 类 别 频率 时 ， 特 征 项 在 类 别 间 分 布 的 越 集中 ， 包 含 特征 项 的 


类 频率 来 表示 该 项 的 重要 水 平 。 与 道 文本 频率 类 似 ， 在 计算 


类 别 数 占 总 类 别 数 的 比例 越 小 ， 特 征 项 的 区 别 度 就 越 大 。 逆 类 


别 频率 (ICF): 
C 
ICF(x, ) =1 (12) 
(Con) Og Fr) 
其 中 : cf(xm) 表 示 含 有 特征 项 xm 的 类 别 数 ，C 代表 类 别 总 


逆 类 别 频率 5 
特征 项 多 还 是 少 ， 只 要 在 类 别 中 存在 ， 就 对 其 同等 对 待 ， 这 样 


中 没有 对 类 内 特征 项 的 多 少 进行 区 分 ， 不 管 


增 大 了 低频 词 的 作用 。 因 此 引入 类 别 变异 系数 CCV (class 
coefficient of variation ) 度量 类 别 频 率 的 离散 度 。 类 别 变异 系数 


越 大 ， 证 


有 具有 代表 


明 特 征 项 在 各 个 类 别 出 现 频数 相差 越 大 ， 该 特征 项 越 
性 。 


类 别 变 异 系数 CCV: 


名 (x,) -tf06,)) 
n=] 
CCV(x , ) = 


C (3) 
EC) 


m 


因此 类 别 频率 的 计算 如 下 : 
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丁 月 ， 等 : 一 种 基于 改进 简 征 加 权 的 相 素 贝 叶 斯 分类 算法 


a) 文 本 预 处 理 。 将 训练 文本 使 用 NLPIR 2016 实施 分 词 、 删 
] 词 等 操作 。 
b) 特 征 项 选取 。 采用 IG 算法 算出 每 个 特征 项 的 权 值 , 按 权 
值 由 高 到 低 排序 ， 对 前 N 个 的 特征 项 完成 挑选 。 
co) 文本 表示 。 把 选取 的 特征 项 用 向 量 空间 模型 表示 ， 组 成 
寺 征 项 向 量 组 ， 用 这 个 空间 向 量 表示 文本 。 
d) 分 类 器 训练 。 用 本 实验 选取 的 六 种 改进 后 的 朴素 贝 叶 
分 类 算法 对 分 类 文本 进行 分 类 。 有 具体 过 程 为 : 
(8 对 待 分 类 的 文本 进行 分 词 、 去 除 停 用 词 等 操作 后 , 按 IG 
算法 提取 一 部 分 特征 项 ， 构 成 特征 向 量 。 
(b) 统 算出 公式 中 的 P(cn) 和 P(xmlen), 同 时 根据 特征 加 权 算 


除 停 


Fe 


类 别 频率 CF (class frequency): 
CF= 1CF xCCV 
2.5 改进 的 加 权 朴素 贝 叶 斯 算法 


(4) 


根据 上 述 分 析 ， 本 文 引入 JS 散 度 来 计算 特 和 


E 项 的 权重 值 ， 


通过 词 频率 、 文 本 频率 、 类 别 频率 对 其 进行 修正 


， 最 终 得 到 的 


特征 项 权 值 ，/ 


因此 最 终 


这 个 特征 项 权 值 对 朴素 贝 叶 斯 公式 改进 。 
的 加 权 朴 素 贝 叶 斯 算法 如 下 。 


Cn) x 


cws =argmaxP(ca)[ [PO 


JS(xm)xTF x DF x CF (15) 


3 ”实验 研究 


3.1 
为 了 
可 行 性 和 


实验 数据 


测试 本 文 所 提出 的 新 特征 加 权 朴 素 贝 叶 斯 分 类 算法 的 
准确 性 , 本 文选 取 了 Sogou Labs 所 提供 的 文本 分 类 语 


料 库 ， 从 
这 7 个 类 
篇 做 训练 


中 选取 了 汽车 、IT、 军 事 、 教 育 、 旅 游 、 文 化 、 体 育 
别 进行 实验 测试 , 每 个 类 别 选取 800 篇 文本 , 其 中 600 
文本 ，200 篇 作为 测试 文本 。 


3.2 实验 描述 


实验 


Core i5-3210M CPU ® 2.50 GHz, 内 存 为 4.00 GB ， 
MyEclipse 10+JDK 1.8+Tomcat 8.0， 使 用 


使 用 中 国 


实验 
验 流程 如 


环境 如 下 : 操作 系统 为 Windows 10， 处 理 器 为 InterGR) 
开发 环境 是 
Java 语言 进行 开发 ， 

科学 院 计算 技术 研究 所 开发 的 分 词 系 统 NLPIR 2016 


步 又 主要 分 为 分 类 器 训练 与 分 类 器 分 类 两 个 部 分 。 实 
图 1 所 示 。 体 实现 步骤 如 下 : 


法 算出 每 个 特征 项 的 权重 ， 带 入 到 朴素 贝 叶 斯 公式 中 。 
(c) 将 分 类 测试 文本 与 各 个 类 别 进行 比较 后 ， 计 算 结 果 最 大 
的 就 是 待 分 类 文本 所 属 类 别 。 
ES 
1 始 人 > 文本 预 处 理 aa 
有 7/ | 
| | 
训练 广 
集 | 文本 预 处 理 || | 特征 项 选取 
SR J 
千 征 加 
特征 项 过 取 || 权 和 法 计 和 
权重 
二 时 y 
空间 向 量 模 | | 使 用 训练 好 
型 进行 文本 的 分 类 器 
表示 行 分 类 
1 
构造 朴素 贝 | ( 结束) 
叶 斯 分 类 器 | 下 好 
图 1 实验 流程 
3.3 评价 方法 


为 了 对 上 述 各 种 算法 的 优 劣 性 进行 评 舍 ， 本 次 实验 选取 精 
确 率 P、 召 回 率 R 和 它们 的 调和 平均 值 Fl 作为 比较 依据 。 
。 赤 p _ 正确 分 到 类 别 c 中 的 文本 数 


准确 强 ~ (6) 
所 有 分 到 类 别 c, 中 的 文本 数 
正确 分 到 类 别 c, 中 的 文本 数 
召回 率 R = 一 一 (17) 
实际 类 别 c 中 应 有 的 文本 数 
A (8) 
P+R 
3.4 实验 结果 
使 用 朴素 贝 叶 斯 (NB ) 算法 、 基 于 TF 的 朴素 贝 叶 斯 分 类 
算法 (TF-NB) 、 基 于 TF-IDF 的 朴素 贝 叶 斯 分 类 算法 
CTEIDF-NB ) 、 基 于 TFICF 的 朴素 贝 叶 斯 分 类 算法 


CTEFICF-NB) 、 基 于 JS 散 度 的 朴素 贝 叶 斯 分 类 算法 (JS-NB) 
以 及 本 文 提出 在 JS 散 度 的 基础 上 进行 词 频 、 文本 频率 、 类 别 频 
率 补充 修正 的 算法 (JS-TFDFCF-NB) 这 六 种 算法 进行 了 两 组 
实验 。 

实验 1 选取 特征 项 个 数 N 的 值 为 500、1 000、1 500、2 000、 
3 000、4 000、5 000、6 000、8 000、10 000 这 10 个 维度 进行 
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实验 ， 分 析 各 种 算法 在 不 同 维 
3 和 图 2 所 示 。 

实验 2 在 特征 项 维度 N=3000 的 条 件 下 ， 比 较 各 种 算法 
在 所 选取 的 搜狗 实验 室 的 七 个 不 同类 别 内 的 分 类 必 
果 如 表 4 和 图 3 所 示 。 

从 表 3、4 和 图 2、3 中 可 以 看 出 ， 传 统 朴素 贝 叶 斯 算法 在 
六 种 算法 中 ， 其 准确 率 、 召 回 率 和 Fl 这 三 个 值 皆 为 最 低 ， 分 
类 性 能 最 差 。 其 他 经 过 加 权 处 理 后 的 朴素 贝 叶 斯 算法 与 传统 朴 
素 贝 叶 斯 算法 相 比 ， 其 分 类 效果 都 有 一 定 提 高 ， 其 中 由 本 文 提 
出 的 JS-TFDFCF-NB 算法 的 分 类 效果 最 好 。 如 表 3 和 图 2 所 示 ， 


度 下 的 分 类 性 能 。 实 验 结果 如 表 


多 


证 台 已 
车 Ho 


实验 结 


各 


ChinaX iv 会 作 期 刊 ， 


丁 月 等 : a 村 


随 着 特征 项 维度 的 增多 ， 算 法 分 类 性 能 随 之 提高 ， 但 是 提高 的 
速率 越 来 越 小 ， 到 一 定 程度 后 文本 分 类 准确 率 、 召 回 率 及 Fl 
的 值 都 稳定 在 一 定 范围 。 根 据 表 4 和 图 3 所 示 ， 在 不 同类 别 下 
各 分 类 算法 的 分 类 效果 不 同 ,在 军事 和 体育 类 别 分 类 效果 较 好 ， 
各 个 类 别 中 JS-TFDFCF-NB 算法 比 其 他 分 类 算法 准确 度 都 高 。 

实验 1、2 的 结果 可 以 得 出 ， 用 新 提出 的 基于 JS 散 度 并 
在 词 频 、 文 本 频率 、 类 别 频 率 三 方面 改进 的 算法 进行 分 类 时 ， 

其 精确 度 、 召 回 率 及 调和 平均 值 都 相对 


} 较 高 ， 说 明 本 文 所 提出 
的 算法 的 分 类 性 能 相对 于 其 他 算法 有 了 进一步 的 提高 ， 是 一 种 
较 好 的 分 类 算法 。 


区 


/ 


表 3 各 算法 在 


TF-NB (%) TFIDF-NB (%) 
下 R F P R FP F R 
55.75 55.83 59.27 57.50 57.23 60. 
63. 32 65.24 69.54 67.32 65.95 64.03 
69. 30 69.47 71.89 70.66 72.56 77.92 
70. 20 71.62 75.34 73.43 73. .24 
72. 00 72.87 79.49 76.03 76. .03 
74.52 74.95 76.23 75.59 78. .82 
74.83 74.03 72.24 73.12 78. .40 
72.68 75.29 78.24 76.74 77. .29 
74.43 73.72 76.29 74.98 78. -78 
75. 59 72. 18 74.24 73.19 78.64 80.98 


63 


19 64 


NB (%) TF-NB (%) TFIDF-NB (%) 


58. 
64. 
75. 
76. 
78. 
80. 
79. 
75. 
78. 
?9 


F 


得 


表 4 在 N=3000 时 各 算法 在 不 同类 


P R 下 了 R 我 > R 


73. 61 78. 31 75. 89 74. 86 83. 
60. 95 64. 93 62. 88 65. 33 73. 
79.71 87. 58 83. 46 81. 44 87. 
育 68.57 76.25 72.21 75. 18 82. 
61. 42 67. 34 64. 24 65. 76 71. 
67. 35 68.72 68. 03 71. 28 75. 
75. 63 78.78 77.17 76.25 82. 


8 
75 69. 29 73; 
83 84. 51 83. 
17 78. 52 78. 
87 68. 68 68. 
43 73. 30 76. 
23 79. 13 81. 


41 88. 
71 72. 
16 87. 
62 80. 
06 71. 
55 77. 
25 89. 


47 82. 
28 72. 
78 85. 


39 76. 
32 85. 


30 79. 
69 69. 


57 
9 
41 
45 
83 
97 
09 


不 同 维度 下 实验 结果 统计 


TFICF-NB (%) JS-NB (%) JS-TFDFCF-NB (%) 

P R Ff 和 R F P R Ff 
57.39 61.48 59.36 57.89 62.82 60.26 58.14 62.88 60. 
60. 89 65.17 62.96 66.34 70.35 68.29 69.71 73.60 71. 
68. 15 75.05 71. 43 70.77 78.27 74.33 75.03 78.15 76. 
73. .24 75. “97 .53 
75. .30 TE .73 .18 
Yi . 24 76. .28 19 
78. .49 79. .67 .25 
76. . 56 78. .47 . 29 
76. .29 80. .39 .39 
77.81 78. 35 81. 34 85. 02 “92 


别 中 实验 结果 统计 


TFICF-NB (%) JS-NB (%) JS-TFDFCF-NB (%) 

P R 下 PF R 下 P R 下 
76. 07 84.73 80.17 75. 11 80. 34 77. 64 81. 34 89. 62 85. 
69. 21 71.23 70.21 75. 92 77. 55 76. 73 74.98 78. 84 76. 
81. 60 92. 42 86. 67 84. 63 86. 03 85. 32 89. 13 91. 22 90. 
72. 82 78. 20 75.41 80. 17 83.72 81.91 82.47 88. 14 85. 
69. 36 71. 19 70. 26 67. 39 75. 35 71. 15 75. 52 77. 36 76. 
77. 33 79.08 78.20 73.07 78.87 75.86 77.04 83. 36 80. 
82. 35 85. 25 83.77 84. 36 90. 25 87.21 88. 84 94. 71 91. 


41 
61 
56 


81 78. 08 34 


28 
86 
16 
21 
43 
08 
68 


%) 


F1 (单位 : 
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© 


6 


un 
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图 3 


—— F(%) NB 

—— F(%) TF-NB 

—— F(%) TFIDF-NB 
—— F(%) TFICF-NB 
—— F(%) JS-NB 

—— F(%) JS-TFDFCF-NB 


1000 1500 2000 3000 4000 5000 6000 8000 10000 


2 各 算法 在 不 同 维度 下 Fl 的 比较 


FT 


旅游 


国 F(%) NB 

国 F(%) TF-NB 

国 F(%) TFIDF-NB 

国 F(%) TFICF-NB 

国 F(%) JS-NB 

国 F(%) JS-TFDFCF-NB 


各 算法 在 N=3000s 时 在 不 同类 别 中 Fl 的 比较 


4 


与 


于 


Te A 


结束 语 


在 使 用 传统 朴素 贝 叶 斯 分 类 算法 计算 分 类 特征 项 权重 时 ， 
实际 情况 存在 出 入 ， 为 完成 改进 ， 本 文 提 出 了 一 种 新 的 基于 
征 加 权 的 朴素 贝 叶 斯 分 类 入 过 JS 散 度 公式 计算 出 特征 
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确 度 ， 并 且 分 类 效果 优 于 其 他 改 ; 


最 后 使 用 计算 出 的 特征 项 的 权 值 改进 素 贝 叶 斯 公式 。 通 
两 组 对 比 实验 证 明 ， 使 用 该 算法 可 以 提高 朴素 贝 叶 斯 分 类 的 
法 。 但 是 本 文 没 有 考虑 


T 


[1] 


[2] 


[7] 


[8] 


征 项 位 置 不 同 , 其 重要 性 
类 续 提高 分 类 的 准确 性 。 


bb 不同, 接 下 来 需要 进一步 的 研究 ， 


六 名) 名 


报 : 自然 科学 版 ,2007, 34 (6): 67-69. (Lu Wei, Peng Ya. Performance 


多 雅 。 几 种 常用 文本 分 类 算法 性 能 比较 与 分 析 [中 . 湖南 大 学 
comparison and analysis of several general text classification algorithms 
[J]. Journal of Hunan University: Natural Sciences, 2007, 34 (6): 67-69. ) 
Aliwy A. Comparative study of five text classification algorithms with 
their improvements [J]. International Journal of Applied Engineering 
Research, 2017, 12 (14): 4309-4319. 

Sohrawardi S J, Azam I, Hosain S. A comparative study of text 
classification algorithms on user submitted bug reports [C]// Proc of the 9th 
International Conference on Digital Information Management. Piscataway, 
NJ: IEEE Press, 2014: 242-247. 

Rajvanshi N, Chowdhary K R, Rajvanshi N, et al. Comparison of SVM 
and naive Bayes text classification algorithms using WEKA [J]. 
International Journal of Engineering & Technical Research, 2017, 6 (9): 
141-143. 

贺 鸣 ， 孙 建 军 , 成 疾 . 基于 朴素 贝 叶 斯 的 文本 分 类 研究 


科学 ,2016, 34 (7): 147-154. (He Ming, Sun Jianjun, Chengyin. Text 


综述 加 . 情报 


classification based on Naive Bayes: A review [J]. Information Science, 
2016, 34 (7): 147-154. ) 

徐 光 美 , 刘 宏 哲 ， 张 教 尊 . 基于 特征 加 权 的 多 关系 朴素 贝 叶 斯 分 类 模型 
[]. 计算 机 科学 , 2014, 41 (10): 283-285. (Xu Guangmei, Liu Hongzhe, 
Zhang Jingzun. Multi-relational naive Bayes classifier using feature 
weighting [J]. Computer Science, 2014, 41 (10): 283-285. ) 

Li Dawei, Hu Xiaojian, Jin Chengjie, et al. Learning to detect traffic 
incidents from data based on tree augmented naive Bayesian classifiers [J]. 
Discrete Dynamics in Nature & Society, 2017, 2017 (1): 1-9. 

朱军 ， 述 四. 计算 机 研究 与 发 展 ， 


2015, 52 (1): 16-26. (Zhu Jun, Hu Wenbo. Recent advances in Bayesian 


胡 文 波 . 贝 叶 斯 机 器 学 习 前 沿 进 展 综 


machine learning [J]. Journal of Computer Research and Development, 


人 人 
hinaXiv 合 作 : 
/= 


日 工 | 
且 月 - | 


本 月 和 i 
2015, 52 (1): 16-26. ) 

[9] 单 丽 莉 , 刘 乘 权 , 孙 承 杰 . 文本 分 类 中 特征 选择 方法 的 比较 与 改进 [J]. 
哈尔滨 工业 大 学 学 报 , 2011, 43 (S1): 319-324. (Shan Lili, Liu Bingquan， 

Sun Chengjie. Comparison and improvement of feature Selection method 

for text categorization [J]. Journal of Harbin Institute of Technology, 2011, 

43 (S1): 319-324. ) 

刘 雄 逻 ， 张 东 站 . 基于 特征 相关 的 改进 加 权 朴 素 贝 叶 斯 分 类 算 


法 [J]. 厦门 大 学 学 报 : 自然 科学 版 , 2012, 51 (4): 682-685. (Rao Lili, 


[10] 饼 丽 丽 ， 
Liu Honghui, Zhang Dongzhan. An improved weighted naive Bayes 
classification algorithm using feature correlation [J]. Journal of Xiamen 
University: Natural Science, 2012, 51 (4): 682-685. ) 

[11] Wang Deqing，Zhang Hui. Inverse-category-frequency based Supervised 
term weighting scheme for text categorization [J]. Journal of Information 
Science & Engineering, 2013, 29 (2): 209-225. 

[12] 石 慧 ， 贯 代 平 ， 苗 培 , 基于 词 频 信 息 的 改进 信息 增益 文本 特征 选择 算法 
[J]. 计算 机 应 用 , 2014, 34 (11): 3279-3282. (Shi Hui, Jia Daiping, Miao 
Pei. Improved information gain text feature selection algorithm based on 
word frequency information [J]. Journal of Computer Applications, 2014, 
34 (11): 3279-3282. ) 

[13] Peng Jian, Yang Xiaohua, Ouyang Chunping, et al. An improved 
information gain algorithm based on relative document frequency 
distribution [C]// Proc of the 5th CCF Conference on Natural Language 
Processing and Chinese Computing, and the 24th International Conference 
on Computer Processing of Oriental Languages. New York: Springer Press, 
2016: 559-567. 

[14] Ren Fuji, Sohrab M G. Class-indexing-based term weighting for automatic 
text classification [J]. Information Sciences, 2013, 236 (1): 109-125. 

[15] Lin, Jianhua. Divergence measures based on the Shannon entropy [J]. IEEE 
Trans on Information Theory, 1991, 37 (1): 145-151. 

婧 ， 邵 雄 凯 ， 刘 建 和 月 , 等. 文本 分 类 中 一 种 特征 选择 方法 研究 [J/OL]. 

计算 机 应 用 研究 ，2019，36 (8): 


[16] 赵 
1-8. (2018-04-24) [2018-06-18]. 
http://www. arocmag. com/article/02-2019-08-017. html. (Zhao Jing, Shao 
Xiongkai, Liu Jianzhou, et al. Study on feature selection method in text 
classification [J/OL]. Application Research of Computers, 2019, 36 (8): 
1-8. (2018-04-24) [2018-06-18]. http://www. arocmag. 
com/article/02-2019-08-017. html. ) 

计算 
机 应 用 研究 , 2018, 35 (12): 1-5. (2018-04-24) [2018-06-18]. http://www. 


[17] 周 胞 程 ， 刘 旭 敏 ， 徐 维 祥 . 基于 类 别 方差 的 特征 权重 算法 [J/OL]. 

arocmag. com/article/02-2019-08-017. html. ) (Zhou Pengcheng, Liu 
Xuming, Xu Weixiang. Feature weighting algorithm based on class 
variance [J/OL]. Application Research of Computers, 2018, 35 (12): 1-5. 
(2018-04-24) [2018-06-18]. 


http://www:. arocmag. 


com/article/02-2019-08-017. html. ) 


